FreeDrag:无需点跟踪,实现稳定的语言内容拖拽
2023 年,AI 再度成为人们茶余饭后的热点话题,其中 AIGC 方向触达范围广、对体验者技术要求低、生成效果丰富且逼真,引起了人们极大的兴趣。5 月,在 AIGC 的广阔世界里出现了一个新的热点:由谷歌、麻省理工学院(MIT)、马普所等机构合作打造的 DragGAN 的图像编辑方法,一经发布就在各大平台上获得了海量流量,引发热议。
DragGAN 通过在给定图像上通过把语义内容从原位置(handle point)拖动到目标位置(target point)的方式进行精细的定制化编辑操作。然而,DragGAN 的性能严重依赖于点跟踪的准确性,而点跟踪策略本质上是不稳定的——因为它隐式地假设每次移动后在默认的搜索区域内,有且仅有一个点完美继承了 handle point 的特征。这个假设会在以下两种情况失效:
图像内容发生剧烈变化导致的跟踪丢失
搜索区域内的相似点导致的跟踪错误
为了避免不稳定的点跟踪对图像编辑质量的损害,中国科学技术大学和上海人工智能实验室的研究者们共同提出了一种以特征为导向的基于点的交互式编辑框架:FreeDrag
项目 GitHub 链接:https://github.com/LPengYang/FreeDrag
FreeDrag 通过引入自适应更新的模板特征,模糊定位和线性搜索技术,在无需进行精确点跟踪的情况下即可实现更加稳定可靠的拖动编辑。相比于 DragGAN 要求的精确的点跟踪,FreeDrag 搜寻的定位点是“模糊”的,因为它并不要求搜寻 handle point 的准确位置,而是通过约束特征差异确保定位点在 handle point 附近, 因此摆脱了精确定位的负担。此外,FreeDrag 只在原始 handle point 和 target point 形成的直线上进行点搜索,这种线性搜索策略有效地缓解了相邻区域内相似点的干扰,保障了运动监督的可靠性,进一步提高点移动的稳定性。
■ FreeGrag APP: 无需部署,轻松在线体验
为了方便用户快速简便地体验,FreeDrag 作者在 OpenXLab 浦源内容平台,搭建了一个简单易用的在线应用:
第一步:进入应用链接:https://openxlab.org.cn/apps/detail/LPengYang/FreeDrag (建议使用 PC 端体验,文末点击阅读原文可直达)
第二步:选择模型类型(model name)和随机种子(seed)。如果使用默认图片,此步骤可跳过。
第三步:指定 handle point 和 target point,绘制 mask。其中 handle point 为移动起始位置,target point 为移动目标位置,mask 为非必须,若绘制 mask, 则限制只编辑 mask 区域内的内容。
第四步:点击 Drag it 开始语义拖拽,在拖拽过程中可以通过 Stop 按钮提前终止。
其他参数介绍:
Max step: 最大迭代步数;
Sampling interval: 采样间隔,即间隔多少次迭代更新显示图片,更大的采样间隔可以提高处理速度,采样间隔只影响中间结果可视化的连续性,对最终结果无影响;
Expected initial loss 和Max distance : 模型超参数。对于精细化编辑(例如眼睛的闭合),推荐使用较小值,这种情况下处理时间会相应增加。
真实图片编辑:用户可以通过图片上传实现对真实图片的编辑。对于上传的图片需要额外耗费 2 分钟完成图片到 latent code 的反转,其他编辑功能不变。为了高质量的图片反转,请确保上传图片的尺寸和风格和对应 Stylegan2 模型保持一致。
浦源内容平台(https://openxlab.org.cn/apps)是面向 AI 研究员、开发者和使用者的一站式应用开发平台,同时也提供包括模型免费托管和数据集下载等服务。目前,平台已和诸多高校老师、AI 顶会作者、社区用户建立联系,共建 AI 应用,欢迎大家进入平台交互式地体验各种有趣的 Demo,或发挥灵感,创建属于你的 AI 应用。
除此之外,内容平台还有很多其他有趣的应用/模型(涵盖 AIGC、计算机视觉 、AI4Science......诸多方向),欢迎小伙伴们来在线体验。
快来扫描下方二维码进群交流,获取最新应用上架消息,免费体验更多 AI 应用~
2023-08-03
2023-08-02